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Технологя в1дтворення структур знань з використанням 
апарату розширених семантичних мереж 


В статье рассматривается задача извлечения из текстов естественного языка структур знаний: 
информационных объектов («именованных сущностей»), их свойств, связей и фактов участия в 
действиях. Для этих целей разработан инструментарий: язык представления знаний (расширенные 
семантические сети — РСС) и их обработки (язык преобразования структур — ДЕКЛ). На этой основе 
созданы технологии, которые обладают следующими особенностями. Из текстов извлекаются не 
отдельные объекты (именованные сущности), а структуры знаний, представляющие связи объектов и 
их участие в действиях и событиях. Для извлечения структур знаний разработан уникальный семантико- 
ориентированный лингвистический процессор (ЛП), осуществляющий глубинный анализ текстов ЕЯ 
и выявляющий десятки типов объектов вместе с их структурами. Процессор ЛП управляется лингви- 
стическими знаниями, представляющими собой декларативные структуры и обеспечивающие 
быструю настройку ЛП на предметную область и язык. Основой лингвистических знаний являются 
правила, обладающие высокой степенью избирательности при выявлении объектов («сущностей»), 
средствами устранения коллизий при их применении. Это позволяет минимизировать шумы и потери. 
Ключевые слова: извлечение знаний из текстов, лингвистические процессоры, 
расширенные семантические сети, обработка структур знаний. 
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У статт! розглядаеться задача знайдення у текстах природно! мови структур знань: 1нформащйних 
об’ектв («менованих сутностей»), 1х якостей зв’язюв 1 факпв участ! у длях. Для цих шлей розроблений 
1нструментарий: мова представлення знань (розширен! семантичн! мереж! — РСМ) та 1х обробки (мова 
перетворення структур — ДЕКЛ). На шй основ! створен! технологи, що мають наступн! особливост1. 

3 теств видляються не окрем! об’екти (1менован! сутност!), а структури знань, що представляють 
звязки об’скт!в та 1х участь у дях та подях. 3 метою видлення структур знань розроблений винятковий 
семантико-ор1ентований л1нгв1стичний процесор (ЛП), що зайснюе глибинний анал!з текст1в ЕЯ та 
виявляе десятки тишв об’ектв разом з 1х структурами. Процесор ЛП керуеться л1нгв1стичними знаннями, 
як! представляють собою декларативн! структури та забезпечують швидке настроювання ЛП на предметну 
сферу та мову. Основою л1нгв1стичних знань е правила, що мають високий стушнь виб1рковост! при 
виявленн! об’ект!в («сутностей»), засобами усунення кол1з!Й при 1хньому використанн!. Це дозволяе 
м1н1м1зувати шуми та втрати. 

Ключов! слова: знайдення знань 3 текст1в, л1нгв1стичн! процесори, 

поширен! семантичн! мережи, обробка структур знань. 


Введение 


В настоящее время проблема извлечения знаний становится все более актуаль- 
ной, что связано с развитием сети Интернет, где накапливаются громадные объемы 
информации. В основном, это тексты на естественном языке (ЕЯ). Для избирательного 
извлечения информации по запросам пользователя требуется привлекать семантические 
отношения и компоненты. В связи с этим все большее распространение и развитие 
получают такие направления, как семантический У!ЕВ, языки ВПЕ (для представ- 
ления отношений), ОУТ, (для представления онтологий) и др. [\/\/\.зетаписюо[5.г4]. 

Одно из направлений связано с извлечением из текстов ЕЯ, так называемых, 
информационных объектов (лиц, организаций, адресов, дат и др.) и связей между ними. 
Другое название объектов — «пате4 епиНез» (МЕ) или «именованные сущности» [1], [2]. 
Наиболее продвинутые системы извлечения сущностей разработаны в Станфордском 
университете (Зап ога МЕК зузет), Иллинойском университете (Ппо1з МЕВ зу%ет), а 
также «Глиерре МЕК зуу%ет» и др. Такие системы, как правило, ориентированы на 
выделение нескольких типов именованных сущностей. Например, первая система типа 
7 ‹1аз; выделяет только 7 типов сущностей. Более того, во многих системах не учитыва- 
ются связи. Их работа заканчивается лишь разметкой текстов с выделением компонент, 
соответствующих сущностям (МЕ). При использовании таких разметок (например, для 
семантических поисков или аналитических решений) возникают существенные труд- 
ности. Среди реально работающих отечественных систем следует отметить «РиЙЕпв», 
«Зетапих» (Синергетические системы), КЕУ\!ЕМ и др., [В@р:/Лригап1050$. сот/ги/ 
Зузеил5/]. 

В связи со сказанным перспективным представляется направление, когда извле- 
каются не только объекты, но и их связи, в том числе факты их участия в действиях 
или событиях. Возникают структуры знаний, обеспечивающие другой уровень решения 
задач. Но при этом требуются специальные средства представления и обработки знаний. 

Для представления структур знаний в рамках проектов ИПИ РАН разработан 
новый математический аппарат и соответствующий инструментарий: язык расширен- 
ных семантических сетей (РСС), а для обработки — продукционный язык ДЕКЛ [3]. 
Они образует законченный технологический комплекс, ориентированный на сложные 
задачи, связанные с логическим выводом, преобразованием представлений, лингвисти- 
ческим анализом, экспертными и аналитическими решениями. На этой основе построено: 

— семейство оболочек для построения экспертных (ШЕДЛ, РЕСЗАУ и др.); 

— множество самих экспертных систем («Токсиколог» — для института Склифо- 
совского, «Тибет» — для лечения методами тибетской медицины и др.); 
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— несколько лингвистических оболочек для создания языков и организации 
естественно-языкового общения (ДИЕС, ИКС); 

— семейство лингвистических процессоров глубинного анализа текстов для 
конкретных логико-аналитических систем; 

— ряд интеллектуальных систем различного назначения, например, СПРУТ 
(для выявления организованных преступных формирований), «Криминал» (решает 
задачи оперативно-аналитической обработки и семантического поиска), «Резюме» 
(для формализация заявок на работу) и др. [4]. 

Как показал опыт, разработанный инструментарий позволяет быстро строить 
интеллектуальные системы высокой степени сложности. В данной статье рассматри- 
вается использование этого аппарата для задач извлечения и обработки структур 
знаний. Успешность систем зависит от извлекаемой информации (количества и типов 
извлекаемых объектов и связей), а также от способа представления результатов (знаний) 
и средств их обработки, что непосредственно определяет класс и качество решаемых 
задач. Имеются в виду задачи идентификации объектов, выявления и анализа фактогра- 
фической информации, семантического поиска, экспертных решений, ответа на запро- 
сы, выраженные на ЕЯ, и др. [4], [5]. 

Для извлечения знаний требуется разработка соответствующих лингвистических 
процессоров, отображающих тексты ЕЯ на структуры знаний. При этом формализмы 
представления знаний должны учитывать высокую степень разнообразия объектов и 
их связей. Например, для лиц должны быть представлены не только родственные 
связи и их анкетные данные, но и действия или события, в которых эти лица 
участвуют. Собственно, они и составляют факты. Такие действия привязаны ко 
времени, месту. Более того, одни события могут быть составной частью других. Они 
могут быть связаны причинно-следственными и временными отношениями. Для 
ряда задач подобные связи играют важную роль. Их тоже нужно выявлять и ис- 
пользовать. Поэтому следует считать, что действия и соответствующие им факты — 
это тоже информационные объекты, связанные между собой и с другими информацион- 
ными объектами. Возникают сложные структуры знаний. Для их представления и 
разработан язык РСС [3]. 

Для извлечения знаний разработан и постоянно совершенствуется семантико- 
ориентированный лингвистический процессор (ЛП), анализирующий тексты ЕЯ и 
автоматически формирующий на этой основе структуры знаний — так называемые 
содержательные портреты документов (СП-документов) [4], [6], [7]. Они представля- 
ются в виде РСС и образуют базу знаний (БЗ), в рамках которой обеспечивается 
анализ высокой степени глубины и сложности. 

Отметим, что первые такие процессоры были разработаны для системы «Кри- 
минал», ориентированной на информационную поддержку оперативно-аналитической 
работы в ГУВД г. Москвы. Система проводит глубинный анализ документов, цирку- 
лирующих в ГУВД, выделяет до 40 типов объектов, их свойств, отношений и участие в 
действиях. В результате автоматически формируется база знаний, которая служит 
основой для семантических поисков и экспертных решений. Система «Криминал» 
отлаживалась на 500 тыс. происшествий из сводок ГУВД г. Москвы. По основным 
объектам удалось добиться хороших результатов: коэффициент шумов в компонентах 
(лишних слов в объектах) — не более 1 — 2% и потерь (отсутствие нужных слов) — не 
более 1% [3], [4]. Развитие этих процессоров нашло свое воплощение в системах 
«Аналитик», «АнтиТеррор» (ИПИ РАН), «Зетапйх» (совместно с компанией «Синерге- 
тические системы») [7], [8]. Рассмотрим технологическую базу этих процессоров 
[Бир:/Лргаюо20$.сот/га/Тесвпо]о$1е$/]. 
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1 Компоненты семантико-ориентированного лингвистического 
процессора 


Семантико-ориентированный ЛП состоит из четырех основных компонент. 

Блок лексико-морфологического анализа (реализован на С++). Выделяет из 
документа слова и предложения и выдает в виде семантической сети, представляющей 
пространственную структуру документа (ПС-документа). Эта структура имеет вид 
линейной последовательности связанных фрагментов, представляющих слова в нор- 
мальной форме, числа, знаки, а также их основные признаки — лексические, морфологи- 
ческие и семантические. Для придания словам и словосочетаниям дополнительных 
семантических признаков используется набор предметных словарей: словарь стран, 
регионов России, имен, профессий и др. [5], [9]. 

Блок синтактико-семантического анализа проводит анализ ПС-документа, выделяет 
объекты и связи. Для этого используются специальные правила анализа структур (п. 4). 
В результате строится другая семантическая сеть, называемая содержательным портре- 
том документа (СП-документа) [4-6], [10]. Такие портреты образуют структуры зна- 
ний, которые запоминаются в базе знаний (БЗ). Блок обеспечивает: 

— извлечение информационных объектов (лиц, организаций, событий, их места, ...); 

—выявление связей объектов. Например, как лица связаны с организациями, 
адресами и др.; 

—анализ глагольных форм, причастных и деепричастных оборотов с выявлением 
фактов участия объектов в тех или иных действиях; 

—идентификацию объектов с учетом анафорических ссылок и сокращенных 
наименований; 

—выявление связей действий с их местом или временем (где и когда имело 
данное действие или событие). 

—анализ причинно-следственных и временных связей между действиями и 
событиями. 

Блок экспертных решений. Анализирует структуры знаний в БЗ, решает логико- 
аналитические задачи и формирует дополнительную (экспертную) информацию, необ- 
ходимую для пользователя. 

Обратный лингвистический процессор. Преобразует структуры знаний в тексты 
ЕЯ, которые должны быть выданы пользователю. 

Имеется ряд вспомогательных блоков, один из которых — блок построения ката- 
логов объектов. Этот блок выделяет из СП-документов объекты определенного типа, 
которые упорядочиваются по алфавиту и образуют каталог. Например, таким способом 
создаются каталоги лиц (их ФИО), дат, адресов и др. — только тех, которые встретились 
в документах. 

Процессор ЛИ реализован средствами языка ДЕКЛ и управляется лингвисти- 
ческими знаниями (ЛЗ) в виде предметных словарей, средств параметрической на- 
стройки, а также правил выделения объектов и связей (п. 4). С помощью ЛЗ осу- 
ществляется настройка ЛП на соответствующие категории пользователей и корпуса 
текстов. В результате возникает конкретная реализация. Таким образом, речь идет о 
средствах построения семейства процессоров ЛП с широкими возможностями их 
настройки и совершенствования. 

С помощью процессоров ЛП из текстов ЕЯ выделяется более 40 типов объектов. 
Их количество зависит от предметной области и задач пользователя. На рис. 1 
представлены типовые объекты, выделяемые ЛП в системах различного назначения. 
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Отметим, что чем больше таких объектов, тем больше трудностей при их выделении. 
Дело в том, что правила выделения вступают в коллизии, захватывают чужеродные 
компоненты вместо своих и т.д. Такие правила должны быть очень дифферен- 
цированными, что определяет их конструктивные особенности (п. 4). 


1 Условные обозначения, используемые при отображении семан... А [27 53 
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Рисунок 1 — Выделяемые информационные объекты 


Увидеть графы, составленные из этих объектов и отражающие семантику текстов, 
можно на сайте [В р://Ллргат1о20$.сот/га/Оето-1/]. 


2 Содержательные портреты документов 

С помощью семантико-ориентированного ЛП из текстов ЕЯ извлекаются инфор- 
мационные объекты и связи, а также конструкции ЕЯ, представляющие связи, дей- 
ствия (факты, события). Они преобразуются в однотипные фрагменты на РСС, имею- 
щие вид: 

<тип объекта>(<арг.1>,<арг.2>,.../<код фрагмента>), 
<вид связи>(<арг.1>,<арг.2>,.../<код фрагмента>), 
<имя действия>(<арг. 1>,<арг.2>,.../<код фрагмента>). 

Код фрагмента -— это константа, которая соответствует объекту или действию, 
представленному с помощью всего фрагмента. Аргументами (арг. №) могут быть слова 
в нормальной форме (необходимо для идентификации и поиска), или коды других 
фрагментов. В результате возникает аппарат (формализм РСС), покрывающий логику 
предикатов и множество других математических средств. В рамках данного аппарата 
обеспечивается представление случаев, когда одни объекты включают в себя другие, 
или когда комплексные действия включают в себя объекты и другие действия. Такие 
случаи недопустимы в логике предикатов, но являются типичными для текстов ЕЯ, 
что легко представляется в виде РСС, и соответственно, в БЗ. 

Множество таких фрагментов, сформированных на базе текстового документа, 
составляет структуру знаний — содержательный портрет (СП-документа). Рассмотрим, 
как выглядят такие структуры в формализме РСС [4], [8], [10]. 

Пример 2. Текст взят из сводок происшествий ГУВД г. Москвы: 

01.02.98 г. в 16-30 в ОВД обратился гр-н Митрофанов Виктор Михайлович, 
1955 г.р., прож.: Боровское шоссе 38-211, н/р. Он заявил, что 01.02.98 г. в 10-00 уд. 3 
по ул. Федосьино неизвестные, находясь в пьяном виде, учинили скандал, выражались 
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нецензурной бранью, натравили собаку. В результате чего Митрофанов обратился в 
травмпункт, где был поставлен диагноз: укус ноги. 

Содержательный портрет данного текста (СП-текста) имеет вид: 

ДОК (22,“1-02-98”, “СВОДКА;”/0+) 0-(В05$) 

ОВД (ОВДЛ+) 

НО(МИТРОФАНОВ,ВИКТОР,МИХАЙЛОВИЧ,1955/2-) 

БЕЗРАБОТНЫЙ(2-/3+) 3-(22,РВОР_) 

АДР _(БОРОВСКИЙ,.,38,211/4+) 

ПРОЖ.(2-,4-) 

АДР (УЛ.,ФЕДОСЬИНО,ДОМ,3/5+) 

ВО(" "," "„" "НЕСКОЛЬКО/б-) 

НЕИЗВЕСТНЫЙ(6-) 

ПЬЯНЫЙ(6-/7-+) 7-(2,РВОР_) 

СКАНДАЛ(6-ПЬЯНЫЙ!/8-) 8-(22,АСТ_) 

СООБЩИТЬ (2-,8-/9+) 9-(22,АСТ_) 

ДАТА _(1998,02,-01,"10-00"/10-) 

Когда(9-,10-) 

ОБРАТИТЬСЯ(1-,2-/11+) 11-(22,АСТ_) 

ДАТА (1998,02,-01,"16-30"/12+) 

Когда(11-,12-) 

ВЫРАЖАТЬСЯ(6-,НЕЦЕНЗУРНЫЙ,БРАНЬ/13-) 13-(22, АСТ) 

НАТРАВИТЫЬ6-,СОБАКА/14+) 14-(0,АСТ_) 

ОБРАТИТЬСЯ(2-,В,ТРАВМПУНКТ/14-) 14-(0,АСТ_) 
ПОСТАВИТЬЫДИАГНОЗ,УКУС,НОГА/1 6+) 16-(0,АСТ_) 

ПРЕДЛ (22,11-,4-,3-,9-,13-,14-/17+) 17-(2,15,341) 

ПРЕДЛ (22,15-,16-/18-+) 18-(6,342,448) 

Содержательный портрет состоит из элементарных фрагментов, аргументами 
которых являются слова в нормальной или канонической форме (например, для 
существительных - в ед. числе, им. падеже, для прилагательных — дополнительно 
муж. род и т.д.). Это необходимо для поиска и обработки. Как уже говорилось, 
каждый элементарный фрагмент имеет свой уникальный код, который записывается 
в виде числа с знаком «+» и отделяется косой линией. Например, в фрагменте 
ОВД_(ОВД/1+) знак «1+» есть его код. Знак «1-» — это ссылки на него. Например, в 
фрагменте ОБРАТИТЬСЯ(1-,2-/11+) знаки «1-» и «2-» означают, что в ОВД обра- 
тилось лицо, представленное ЕГО(МИТРОФАНОВ, ... /2+). 

Фрагменты типа ДОК_(22,«1-02-98.ТХТ»,«СВОДКА;»/0+) 0-(КИ5) указывают, 
что содержательный портрет построен на основе русскоязычного текста документа 
(ВО5) с номером 22 из файла 1-02-98.ТХТ”, который обрабатывался как сводка про- 
исшествий (от этого зависят лингвистические знания). Следующие фрагменты пред- 
ставляют: отделение милиции (ОВД_), лицо (ФИО), его свойство (РКОР) — безра- 
ботный, адрес (АДР) и т.д. Знаки «3+» ‚, «З» ‚, «4+» ‚ «4»... — это коды фрагментов, с 
помощью которых задаются их связи и отношения. Например, фрагмент ПРОЖ.(2-4) 
представляет отношение, что лицо (представленное как ФИО с кодом «2+») прожи- 
вает по адресу (фрагмент АДР_ с кодом «4+»). Действия также представляются в 
виде фрагментов типа СКАНДАЛ(6-ПЬЯНЫЙ/8-+) 8-(22,АСТ), где представлено, 
что «лицо (ФИО с кодом “6-+”), будучи пьяным, учинило скандал». С помощью кода 
(«8-+», «8-») указывается, что фрагмент представляет действие (АСТ) и относится к 
документу с номером 22. Такие коды также служат для представления времени, 
места действия и фактов их комбинирования — когда одно действие включено в 
состав другого. Будем называть такие действия составными. Например, фрагмент 
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СООБЩИТЫЬ(2-,8-/9-) представляет, что лицо (код «2+») сообщило о действии (код 
«8+»), т.е. об «учиненном скандале». Следующие фрагменты ДАТА_(.../10+) Когда 
(9-,10-) представляют время (ДАТА_) и что оно относится к действию «сообщить» 
(код «9+»). 

Особую роль играют фрагменты ПРЕДЛ (...), которые соответствуют предло- 
жениям. Они заполняются словами, не вошедшими в информационные объекты (в дан- 
ном примере их нет), а также кодами самих объектов. К этим фрагментам добавля- 
ются указатели их местоположения в тексте. Например, фрагмент ПРЕДЛ _(22,11-,3- 
‚9-,13-,14-/17+) 17-(2,15,341) представляет тот факт, что объекты с кодами «11-» 
(соответствует действию «обратиться»), «3-» (соответствует свойству «безработный») и 
др. находятся в предложении, которое начинается с 2-ой строки текста документа и 
занимают место от 15-го байта до 341-го. Это средства позиционирования, которые 
необходимы для работы обратного ЛП. 

Отметим, что вся информация представляется в БЗ на однородной основе, что 
очень важно для обработки, осуществляемой продукциями языка ДЕКЛ. Левая и 
правая части таких продукции (правила ЕСЛИ, ...ТО) состоят из аналогичных фраг- 
ментов, содержащих переменные. Последние обозначаются в процессе применения 
продукций — сопоставления ее левой части со структурами в БЗ и выполнения действий, 
указанных в правой части. С помощью продукций осуществляются различные виды 
преобразования структур знаний, в том числе, осуществляющие разнообразные формы 
логического вывода, преобразование представлений, экспертные оценки и др. Языки 
РСС и ДЕКЛ составляют универсальную инструментальную среду, ориентирован- 
ную на представление и обработку семантической информации, извлекаемой из 
текстов ЕЯ [р:/Лриао2о$.сот/ги/Тоо]5/]. 


3 Принципы выявления объектов и связей 


Для выявления многих объектов используются характеристические слова, по 
которым определяется наличие объекта. Например, слова «дом» (за которым стоит 
число) или «улица» (за которым стоит слово с большой буквы) определяют наличие 
объекта типа «адрес». Аналогично, слова «фирма», ООО, «банк» и др. (за которыми 
стоит слово с большой буквы или слова в кавычках) определяют наличие объекта 
типа «организация». Это характеристические слова, с которых начинается выделение 
объекта, включающего эти слова. 

При отсутствии характеристических слов используется принцип ожидания — 
после одних слов или объектов ожидается наличие других. Например, если после слова 
«инженер» стоит слово с большой буквы (и оно не обладает признаками «организации»), 
то, скорее всего, оно относится к ФИО. Вместо слова «инженер» может быть любое 
другое слово, выражающее профессию. При этом нужно учитывать наличие между 
этим словом и ФИО факультативных элементов, например, названия организации. 
Таким образом начинается выделение подразумеваемых объектов, т.е. тех, у которых 
нет характеристических слов, определяющих их наличие. Например, не распознаны 
компоненты ФИО. 

В текстах ЕЯ многие связи подразумеваются и привязаны к типу выявленных 
объектов. Например, если выявлен адрес, то, скорее всего, он относится к какому- 
либо определенному лицу (или организации), которое нужно искать. При результатив- 
ном поиске формируется новая связь. На этом основана методика формирования 
новых связей. Она заключается в следующем. В процессе анализа текста строятся 
«временные» фрагменты, представляющие связи выявленных объектов с пока что 
неизвестными объектами, которые специальным образом отмечаются. В дальнейшем 
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осуществляется их поиск. Если соответствующий объект не найден, то «временный» 
фрагмент удаляется из СП-документа. Если найден, то фрагмент остается — вводится 
в структуру СП-документа. 

Аналогичная методика используется при формировании новых признаков. Фор- 
мируется признак с пока что неизвестным объектом, который в дальнейшем уточняется. 

При формировании объектов некоторые компоненты могут быть сразу не най- 
дены, например, год рождения, который в СП-документа представляется как компонента 
ФИО. Тогда в соответствующих фрагментах специальными константами отмечаются 
незаполненные аргументные места, которые в дальнейшем уточняются. Для более 
детального описания методик и средств их реализации рассмотрим правила и этапы 
построения СП-документов в процессе синтактико-семантического анализа. 

Отметим, что при глубинном анализе текстов (выделении действий и их участ- 
ников) определенные трудности вызывает наличие в анализируемых глагольных 
формах словосочетаний, представляющих причину действий («на почве неприязненных 
отношений», «в ссоре», «из хулиганских побуждений», ...), сопутствующие действия 
(«при личном досмотре», «при поставке оружия», «во время кражи», ...) и др. 
Многие из таких словосочетаний в сводках происшествий встречаются регулярно и 
поэтому задаются в виде перечней - в соответствующем предметном словаре. 


4 Правила синтактико-семантического анализа 


Синтактико-семантический анализ необходим для выделения связанных групп 
слов, а также информационных объектов («именованных сущностей»): адресов, номеров 
машин, организаций и др. Последние, как правило, это наборы слов, которые могут 
быть грамматически никак не согласованы. Их выделение осуществляется по чисто 
формальным принципам на основе правил, составляющих ЛЗ. Например, адрес может 
рассматриваться как набор буквосочетаний «г.», «ул.», «д.», .... слов с большой 
буквы и чисел. Каждый такой набор может иметь свои границы и недопустимые компо- 
ненты. Например, в адресах не может быть местоимений, глаголов и т.д. Выделение 
таких наборов слов, составляющих описания объектов, основано на использовании 
правил синтактико-семантического анализа (в дальнейшем просто — правил) следую- 
щего вида: 

<Правило\№>:СОМТЕХТ(<слово1>,<слово2>, ...) --> Зрезультирующий фрагмент>, 

где <ПравилоМ№> — имя правила, необходимое для его вызова, а <слово|>, 
<слово2>, ... — это может быть отдельное слово, признак, а также И-ИЛИ граф, со- 
ставленный из слов и признаков. Для этих правил указывается, с какой позиции начи- 
нать применение, а также допустимый или недопустимый контекст. Обычно применение 
начинается с позиции, на которой находятся характеристические слова. Например, вы- 
деление лиц начинается с поиска распознанных компонент ФИО. Выделение адресов — 
с поиска слов: ул., ДОМ, КВ. И Т.Д. 

Правила выделяют из текста группы слов (по их признакам), описывающих 
какой-либо объект, и заменяют их на одно (абстрактное) слово, с которым связы- 
вается соответствующий фрагмент семантической сети и которому присваиваются 
определенные признаки, в том числе признак, указывающий на тип объекта. 

Синтактико-семантический анализ предложений (с выделением словосочетаний 
и анализом языковых конструкций) осуществляется на основе правил, которые при- 
меняются в определенной последовательности. Вначале выделяются простейшие 
объекты, затем согласованные группы слов, затем более сложные объекты и их приз- 
наки, и, наконец, глагольные формы, п. 4. По мере применения таких правил строится 
семантическая сеть — содержательный портрет документа. Например, рассмотрим 
правило с именем С@-1: 
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МО$ТВЕ(СО-1,1) ЭТК _ОВ(АРГ,РКОМ/2+) СОМТЕХТ(2-МОЧМ/СО-1) 

Р_Р(С(-1,3+) \УОКР_С(1,2/3-) МОТВЕ(@@-1,2ГЕТТ). 

Правило @@-1 осуществляет преобразования: 

@@-1:ПРИЛАГАТЕЛЬНОЕ + СУЩЕСТВИТЕЛЬНОЕ --> <комбинация слов> 

МЕСТОИМЕНИЕ + СУЩЕСТВИТЕЛЬНОЕ --> <комбинация слов>. 

Фрагмент МОЗТВЕ указывает, что применять правило С@-1 нужно с 1-ой 
позиции, т.е. искать слова с признаками ПРИЛАГАТЕЛЬНОЕ (АОЛ) иМЕСТОИМЕНИЕ 
(РКОМ), так как их меньше, чем СУЩЕСТВИТЕЛЬНЫХ (МОЧУ). Символ 2+ -— это 
код фрагмента типа «ИЛИ» (5ТК_ОБ), а фрагмент СОМТЕХТ(2-МОЧМ/ОО-1) задает 
позиции правила СС-1, где на первой позиции стоит указанный код (его повторное 
применение обозначается 2-), а на второй — признак МОЦМ. Аналогичным образом 
используются символы З+ и 3-. 

Фрагмент Р_Р отделяет левую часть от правой (- -> ), а \/ОКО_С - указывает, 
что слова на 1-й и 2-ой позициях должны быть склеены в комбинацию слов, которая 
в дальнейшем будет рассматриваться как одно слово с морфологическими 
признаками 2-го слова. Фрагмент МОТВЕ указывает, что на 2-ой позиции не могут 
быть отдельные буквы (признак ГЕТТ). К данному правилу добавляется фрагмент, 
требующий согласованности слов (по падежам, числам), а также фрагменты, задающие 
с признаков и контекстные ограничения. 

Это пример наиболее простого правила. Более сложные правила, построенные 
по аналогичным принципам, осуществляют выделение сложных объектов и действий. 
Помимо этого, в ЛЗ имеются специальные правила, которые осуществляют иденти- 
фикацию объектов, например, с местоимениями или краткими описаниями (по имени 
восстанавливается фамилия, если они где-нибудь упоминались вместе). И многое дру- 
гое, что необходимо при автоматическом построении СП-документа, отражающем 
семантически значимые компоненты ЕЯ-текста. 

Отметим, что каждое правило (как и все лингвистические знания) записывается 
на языке РСС и является частью ЛЗ. Над правилами работают продукции языка ДЕКЛ 
(программа), которые применяют эти правила и играют роль пустой лингвистической 
оболочки, поддерживающей язык записи лингвистических знаний - РСС. Как пока- 
зывает опыт, такую оболочку можно настраивать на различные языки, т.е. строить 
различные лингвистические процессоры, в том числе, англоязычные [6], также 
(Бр://\у\и\ 1ргап1о20$.сот/епеИ$В/юр1с$/юр1с3-е.В ип). 


5 Порядок применения правил 


Правила синтактико-семантического анализа применяются в строго опреде- 
ленной последовательности — каждое на своем уровне. Например, при обработке 
сводок происшествий вначале выделяются информационные объекты — отделения 
милиции (ОВД_), сотрудники милиции (МИЛ) и др. Они могут содержать фамилии, 
имена, которые следует отличать от ФИО лиц -— фигурантов (последние представляются 
фрагментами ЕТО). Далее выделяются статьи УК и т.д. Это необходимо, чтобы 
облегчить последующий анализ. Иначе слова, составляющие эти объекты, могут 
захватываться другими правилами и создавать шумы. 

Далее начинается выделение лиц — фигурантов. Для этого вводится множество 
правил. Одни правила начинают свое применение с поиска распознанных имен или 
фамилий (МИЗТВЕ), другие -— с поиска года рождения, третьи — с инициалов. В ре- 
зультате минимизируются потери в случаях, когда блок морфологического анализа 
не дает необходимых признаков для каких-либо слов (что это имена или фамилии и т.д.). 
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Затем анализируются словосочетания, выделяются объекты, и наконец, анализиру- 
ются глагольные формы. По мере применения таких правил строится СП-документа. 
Последовательность правил задается с помощью специальных фрагментов. Ниже при- 
веден пример представления уровней, определяющих порядок применения правил. 

== Уровни == 
ГЕУЕГСГЕУЕГ 1 Г ЕУЕГ.2 Г.ЕУЕГЗГЕУЕГА....) 
ГЕУЕГ1(САТАГОС) {= Объединение словосочетаний из каталогов =} 


ГЕУЕГ2(МП.-1,5Т-1) {= Выявление отд.милиции, ст. УК =} 

ГЕУЕГЗ(РО-1,00-2....) — {= Выявление времени, дат, в том числе, г.рожд. =} 

ГЕУЕГА(ЕЕ-1,ЕЕ-2, ...) {= Выявление лиц с распознанными ФИО =} 

ГЕУЕГА(ЕА-1) {= Выявление нераспознанных лиц =} 

ГЕУЕГА(ТО 4) ГЕУЕГ11(ТО_2А,Ш_2,Ш_21) {= идентификация 
местоимений =} 

{= Поиск года рождения для выявленных лиц =} 
ГЕУЕТГА(РКОР-1 РВОР-2,Ш_33) {= Выявление свойств и поиск лиц =} 


ГЕУЕГ5(АА-1,АА-2) {= Выявление однородных членов =} 
ГЕУЕГ6(СО-1,СО-2....) — {= Выявление словосочетаний =} 


ГЕУЕГ1О(ТО_1) {= идентификация связок «тот, который» =} 
ГЕУЕГ11(О_2А,Ш_2,Ш_21) {= идентификация местоимений =} 


ГЕУЕГ13(СГ-1,СТ-2А, ...) {= Выявление адресов =} 
ГЕУЕГ15(УУ-1, ...) {= Выявление действий (анализ глагольных и др. форм) =} 


В фигурных скобках даны комментарии. Первый фрагмент ГЕУЕ[С...) задает 
уровни, а последующие -— правила каждого уровня. 

Правила начинают применяться к семантической сети (ПС-текста), которая имеет 
вид линейной структуры и в которой последовательность слов задается с помощью 
фрагментов ГВ. С ними связываются распознанные признаки слов: лексические, 
морфологические, семантические. Предложения разделяются фрагментами ЗЕМТ. 
Все это представляется на РСС. 

Правила анализируют линейную структуру, находят соответствующие группы 
слов, из которых формируются объекты. При этом объекты как бы замещают эти 
слова. Линейная структура сохраняется, но видоизменяется. В конце остается линей- 
ная структура (на РСС), компонентами которой являются объекты и слова, не вошед- 
шие в объекты (напомним, что события и действия — это тоже объекты). На этой 
основе формируется СП-документа [5], [6]. 

В ЛП имеются правила, которые обеспечивают полный разбор предложений. 
При этом параллельно обеспечивается выделение необходимого набора информацион- 
ных объектов, в том числе таких, в которых слова никак не согласованы между собой, 
например, адресов, машин с указанием их номеров и т.д. [3], [4]. На рис. 2 представлен 
процесс применения правил синтактико-семантического анализа. 

На рис. 2 после звездочек (* *) показан текст, на основе которого построен ин- 
формационный объект. Правило СГ-2А выделяет адрес, а правило Ш-31 связывает 
этот адрес отношением ПРОЖ (проживать) с фигурантом — Митрофановым Виктором 
Михайловичем. Правило УУ\У-1 осуществляет анализ глагольных форм, выделяет дей- 
ствия и тех, кто в них участвует. 
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Логико-аналитическая система 

Файл Сервис Справка 

Выход Запрос-ЕЯ Задачи Каталоги Настройки База-знаний 
Введено документов - 26 


1. 02.9 9 | 


(#01. 0 10-( 


ВИЧ 19355 БОРОВСКИЙ ШОССЕ 38 - 211 


ИМЕТЬ МИТР В ОР МИХАЙПОВИЧ Чяя ДОМ 3 УП ФЕДОСВИНО МТ_ЕП_1 
ОН - это ФИО МИТРОФАНОВ ВИКТОР МИХАИЛОВИЧ 1955 


#01. 02. 98 98 02 -01 16-30 
В овдД МИТР 
братился н Митрофанов В 
ОЛЬКО МИТРОФАНОВ В 


р Запрос на ЕЯ 


Рисунок 2 — Процесс применения правил 
6 Принцип «ожидания» при выявлении объектов 


При наличии в тексте объектов без характеристических слов возникают труд- 
ности их выделения. Например, если в тексте встречаются лица с иностранными 
ФИО. У английских фамилий («Буш», «Райс», «Браун», ...) нет характерных суффик- 
сов, как в русском языке. Более того, в качестве фамилий может быть любое слово, 
называющее или определяющее какой-либо предмет внешнего мира. При анализе 
англоязычных текстов такие фамилии вносят элементы неопределенности — омонимии. 
В азиатских языках компоненты ФИО -— это просто слова с большой буквы («Ден 
Сяо Пин», «Лю Шао Ци», ...). Задать перечислением все данные имена или фамилии 
(в предметных словарях) не представляется возможным. В подобных ФИО отсут- 
ствуют характеристические слова. Требуются другие методики выделения. Аналогично, 
адреса могут иметь вид — «Никольская 12-55». Сказанное относится и к другим объектам. 

Для выделения, как уже говорилось, используется принцип «ожидания» — после 
одних объектов (или понятий) ожидается наличие других. Реализация соответствующей 
методики осуществляется с помощью операторов вида: 

ОО_(<Правило1>,<Правило2>,М), 


где Правило | — правило, которое было вызвано. И если оно применилось, то 
оно вызывает Правило 2, применение которого начинается с позиции М. 
Рассмотрим пример использования данного оператора при выявлении ФИО. 
Это осуществляется с помощью двух правил — ЕА-1 и ЕЕ-1: 
МОЗТВЕ(РА-1,1) ЗТК_ОВСМОКВК_К,МАТ_К/2+) СОМТЕХТ(2-/ЕА-1) 
Р_Р(РА-1," ”) @О_(ЕАЗТ,ЕЕ-1,1). 


МОЗТВЕ(ЕЕ-1,1) $ТВ_ОВ(МАМЕО/3+) СОМТЕХТ(3-,3-,3-/ЕЕ-1) 
Р Р(ЕЕ-1,4+) ЕТО(1,2,3,* >/4-) МАУВЕ(ЕЕ-1,3) 
ЗТВ_ОВ(УЕВВ,ЕМС/5+) МОТВЕ(ЕЕ-1,АТТ,5-). 
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Правило ЕА-1 находит в тексте слова с признаками \ОКК_К (профессии) и 
МАТ К (национальность). Такие признаки присваиваются словам блоком морфоло- 
гического анализа на основе предметных словарей, где даны списки профессий, 
национальностей и др. [4]. И если слово с таким признаком найдено, то вызывается 
правило ЕЕ-1, которое проверяет, чтоб за найденным словом стояли 3 слова с большой 
буквы (с признаком МАМЕО). При этом такие слова не могут быть (МОТВЕ) глаго- 
лами (их признак УЕВВ) или англоязычными (их признак — ЕМС), что задается с 
помощью двух последних фрагментов. Фрагмент МАУВЕ(ЕЕ-1,3) указывает, что 
третья позиция является факультативной, т.е. третьего слова с большой буквы (ББ) 
может не быть. И всего одно правило будет применимым. В случае применимости 
формируется фрагмент ЕТО(...). У него в качестве первых трех аргументов будут 
первые три слова, которые удовлетворяют условиям, заданным в фрагменте СОМТЕХТ. 
Эти три слова заменяются на одно, с которым связывается сформированный фрагмент и 
к которому добавляется признак ЕО. 

Эти два правила осуществляют преобразования: 

ПРОФЕССИЯ + 2 или 3 СЛОВА С ББ --> <выделенное лицо>, 

НАЦИОНАЛЬНОСТЬ + 2 или 3 СЛОВА С ББ --> <выделенное лицо>. 

Например, словосочетание «председатель Ху Цзинь Тао» будет преобразовано 
в фрагмент ЕО (ХУ, ЦЗИНЬ, ТАО, ” ”). При этом слово «председатель» останется и 
будет использовано при последующем анализе. Словосочетание «премьер Хапер 
Стивен» будет преобразовано в фрагмент ЕТО (ХАПЕР, СТИВЕН, ” ”, ” ”). Для 
выделения ФИО из словосочетаний типа «премьер Канады Хапер Стивен» в фрагмент 
СОМТЕХТ первого правила необходимо вставить факультативную позицию для слов с 
признаком «государство». Путем модификации правил можно охватить множество 
случаев, не увеличивая количество правил. 

Другой способ выделения ФИО -— через глаголы, субъектами которых могут быть 
только лица. Например, «...Хапер Стивен подписал...», где глагол «подписать» помо- 
гает выделению лица. Такие глаголы даются перечнем («предложить», «подписать», 
«согласиться», ...), а выделение лиц реализуется с помощью того же оператора СО_. 

Отметим, что правила выделения объектов и правила идентификации представ- 
лены в лингвистических знаниях в виде наборов элементарных фрагментов РСС, 
которые легко менять, настраивая лингвистический процессор (ЛП) на ту или иную 
предметную область. Сама программа (на языке ДЕКЛ) остается неизменной. Этот 
фактор дает большие преимущества при отладке и настройке ЛП, так как учесть даже 
малую часть того, что может встретиться в ЕЯ, не представляется возможным. ДЕМО- 
версию процессора ЛП можно найти на сайте (Вир:/Ллргапо0$.сот/га/Оето-1/). 


Заключение 


В данной статье рассмотрены семантические методики по извлечению структур 
знаний из текстов естественного языка. Предлагаемые методики реализованы в 
рамках единого инструментального комплекса: языка расширенных семантических 
сетей (РСС) для представления знаний и средств их обработки — языка ДЕКЛ. Этот 
комплекс ориентирован на организацию баз знаний и на их использование для 
решения интеллектуальных задач, в том числе, связанных с извлечением структур 
знаний, их анализом для дополнения и корректировки структур, логическим выводом, 
принятием экспертных решений. Предметные и лингвистические знания представля- 
ются на единой основе (в виде фрагментов РСС), что позволяет свести казалось бы 
разнородные задачи к преобразованию структур знаний. Это дает определенные 
преимущества: упрощает создание соответствующих программ (на языке ДЕКЛ), 
обеспечивающих анализ высокой степени глубины и сложности. 


«Штучний 1нтелект» 4*2012 201 


ЗК Кузнецов И.П., Шарнин М.М., Мацкевич А.Г. 


Технологический комплекс обладает следующими особенностями: 

1 Из текстов извлекаются не отдельные объекты (именованные сущности), а 
структуры знаний, представляющие связи объектов и их участие в действиях и 
событиях. 

2 Для извлечения структур знаний разработан уникальный семантико-ориен- 
тированный лингвистический процессор (ЛП), осуществляющий глубинный анализ 
текстов ЕЯ и выявляющий десятки типов объектов вместе с их структурами. 

3. Процессор ЛИ управляется лингвистическими знаниями, представляющими 
собой декларативные структуры (на РСС) и обеспечивающие быструю настройку 
ЛП на предметную область и язык. 

4. Основой лингвистических знаний являются правила, обладающие высокой 
степенью избирательности при выявлении объектов («сущностей»), средствами устране- 
ния коллизий при их применении. Это позволяет минимизировать шумы и потери — 
добиваться высокой степени полноты и точности. 

5. Структуры знаний (на РСС) и средства их обработки (язык ДЕКЛ) разра- 
батывались как единый инструментарий, ориентированный на задачи лингвистичес- 
кого анализа, семантического поиска, логико-аналитической обработки и экспертных 
решений. Использование этого инструментария значительно облегчает разработку 
лингвистических процессоров и прикладных интеллектуальных систем. 
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ВЕ5ОМЕ 


1еог Р. Кихпебоу, Мйай М. Зйагпт, Апагеу С. МазКейсй 
Тесйпоову ор КпоиЛеазе ЕжмгасНноп оп ше Базе ор Емепаеа 


хетапис Ме/отк5 

ТБе рарег деуое4 Ше {азК оЁ ехгасИп® гот Ше {ех(5 оЁ пага| 1апоцасе згасагез 
оЁ Кпо\едее: пРогтаНоп об]ес$ («Матеа Еп у»), Фет ргорегиез, теаНоп$1рз, ап 
рагистрайоп ш Фе асйноп$ ап еуешк. Рог 1$ ригрозе, Фе 1апоцазе изе4 Гог Кпо\едэе 
гергезещайоп (еж{еп4ае зетапис пебмогК$ — КСС) апа 1001$ Гог ргосеззте (]апгиасе 
5бгасиге сопуегзлоп — ОСГ) аге сопз14егед. Оп 15$ Базе Фе пе\м {есЬпо]о21ез$ аге 
ргорозеа. П1зипсйуе Геааге$ оЁ ойг (есбпо]о5у: 

1 Ехбасноп Нот Фе {ех{5 оЁ Кпо\е4ее згасиге$ аЕ гергезепе фе ПпК$ оЁ патеа 
епиНез ап4 Фет рагастрайоп ш асНоп$ ап еуеп5. 

2 Еог фе Кпо\е4зе еххасНоп Фе ипаае зетапис-опеме4 ]апоиаее ргосеззог 
(Г.Р) аге 4ез1епеа. Ргосеззог ГР рго\м1Аез Фе 4еер апа[уз$15$ оЁ МГ.-{ех(5 ап геуеаПпе $е 
о обес: {осефег ми Шеш загасвагез. 

3 Ргосеззог Г.Р 15 сопиоПеа Бу Фе Ппоизис Кпо\медее, \№сВ аге десЛагануе 
5гасаге$ (оп ежепдеа зетапис пебмогк$ - Е М) апа \тсВ рго\у!4ез Фе ади1сК ипше оЁ 
ГР оп заБ]ес+ агеа ап4 1апгиасе — Киз$1ап апа ЕпеПЗ$В. 

4 Тлиои1зяс Кпо\е4ее соп$15$ оЁ Фе гШез, \ШшсЬ ргоу14е ше Ь1еВ 4езтее оЁ 
з@есиуйу ш Ше епиНез ехфасйоп ап ешптайоп оЁ соШ5$10п1$ дийи> Фет аррИсаНоп. 
Киез ргоу14е Фе пишил1таНоп оЁ по1зе апа 1055$е$, Ка 1$ фе 16 4естее оЁ сотр! епез$ 
ап4 ассигасу. 

5 Тре Кпо\]е4дее згисбагез ап4 теап$ оЁ фешг ргосеззте (пиеПесша! 1апоиасе 
РЕКГ)) \еге 4ез1опте аз фе ипие4 10015, опемеЯ ю Ше тазК$ оЁ Ппеи1$Яс апа|у$15, 
зетапйс зеагсВ, 1о21са]-апа!уйса] ргосез$те ап Ше ехрем зоайопз. 

ТБе изшо 1$ (0015 сопз4егау РасИае$ Ше дез1еите аррйеа пиеПесвла| зузетив. 


Статья поступила в редакцию 01.06.2012. 
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